人工智能的最新趋势是将验证的模型用于语言和视觉任务,这些模型已经实现了非凡的表现,但也令人困惑。因此,以各种方式探索这些模型的能力对该领域至关重要。在本文中,我们探讨了模型的可靠性,在其中我们将可靠的模型定义为一个不仅可以实现强大的预测性能,而且在许多涉及不确定性(例如选择性预测,开放式设置识别)的决策任务上,在许多决策任务上表现出色,而且表现良好。强大的概括(例如,准确性和适当的评分规则,例如在分布数据集中和分发数据集上的对数可能性)和适应性(例如,主动学习,几乎没有射击不确定性)。我们设计了40个数据集的10种任务类型,以评估视觉和语言域上可靠性的不同方面。为了提高可靠性,我们分别开发了VIT-PLEX和T5-PLEX,分别针对视觉和语言方式扩展了大型模型。 PLEX极大地改善了跨可靠性任务的最先进,并简化了传统协议,因为它可以改善开箱即用的性能,并且不需要设计分数或为每个任务调整模型。我们演示了高达1B参数的模型尺寸的缩放效果,并预处理数据集大小最多4B示例。我们还展示了PLEX在具有挑战性的任务上的功能,包括零射门的开放式识别,主动学习和对话语言理解中的不确定性。
translated by 谷歌翻译
不确定性估计是任何部署的机器学习系统中的关键组件。评估不确定性估计的一种方法是使用“分布外”(OOD)检测,即使用不确定性区分训练数据分布和看不见的不同数据分布。在这项工作中,我们表明当前特征密度的不确定度估计器不能在不同的OOD检测设置上保持良好。为了解决这一问题,我们建议分解学习的陈述,并将估计的不确定性分别相结合。通过实验,我们证明我们可以大大提高不确定性估计的性能和可解释性。
translated by 谷歌翻译
估算高维观测数据的个性化治疗效果在实验设计不可行,不道德或昂贵的情况下是必不可少的。现有方法依赖于拟合对治疗和控制人群的结果的深层模型。然而,当测量单独的结果是昂贵的时,就像肿瘤活检一样,需要一种用于获取每种结果的样本有效的策略。深度贝叶斯主动学习通过选择具有高不确定性的点来提供高效数据采集的框架。然而,现有方法偏置训练数据获取对处理和控制群体之间的非重叠支持区域。这些不是样本效率,因为在这些区域中不可识别治疗效果。我们介绍了因果关系,贝叶斯采集函数接地的信息理论,使数据采集朝向具有重叠支持的地区,以最大限度地提高学习个性化治疗效果的采样效率。我们展示了拟议的综合和半合成数据集IHDP和CMNIST上提出的收购策略及其扩展的表现,旨在模拟常见的数据集偏差和病理学。
translated by 谷歌翻译
We propose a method for training a deterministic deep model that can find and reject out of distribution data points at test time with a single forward pass. Our approach, deterministic uncertainty quantification (DUQ), builds upon ideas of RBF networks. We scale training in these with a novel loss function and centroid updating scheme and match the accuracy of softmax models. By enforcing detectability of changes in the input using a gradient penalty, we are able to reliably detect out of distribution data. Our uncertainty quantification scales well to large datasets, and using a single model, we improve upon or match Deep Ensembles in out of distribution detection on notable difficult dataset pairs such as Fashion-MNIST vs. MNIST, and CIFAR-10 vs. SVHN.
translated by 谷歌翻译
We develop BatchBALD, a tractable approximation to the mutual information between a batch of points and model parameters, which we use as an acquisition function to select multiple informative points jointly for the task of deep Bayesian active learning. BatchBALD is a greedy linear-time 1 − 1 /e-approximate algorithm amenable to dynamic programming and efficient caching. We compare BatchBALD to the commonly used approach for batch data acquisition and find that the current approach acquires similar and redundant points, sometimes performing worse than randomly acquiring data. We finish by showing that, using BatchBALD to consider dependencies within an acquisition batch, we achieve new state of the art performance on standard benchmarks, providing substantial data efficiency improvements in batch acquisition.
translated by 谷歌翻译
癌症护理中的治疗决策受到随机对照试验(RCT)的治疗效应估计的指导。 RCT估计在某个人群中,一种治疗与另一种治疗的平均效应。但是,治疗可能对人群中的每个患者都不同样有效。了解针对特定患者和肿瘤特征量身定制的治疗的有效性将实现个性化的治疗决策。通过平均RCT中不同患者亚组的结果来获得量身定制的治疗效果,需要大量的患者在所有相关亚组中具有足够的统计能力,以实现所有可能的治疗。美国癌症联合委员会(AJCC)建议研究人员开发结果预测模型(OPMS),以实现个性化治疗决策。 OPM有时称为风险模型或预后模型,使用患者和肿瘤特征来预测患者的结局,例如总体生存。假设这些预测对于使用“只有在OPM预测患者具有高复发风险的情况下开出化学疗法的规则”之类的规则,对治疗决策有用。 AJCC认识到可靠预测的重要性,发布了OPM的清单,以确保设计OPM设计的患者群体的可靠OPM预测准确性。但是,准确的结果预测并不意味着这些预测会产生良好的治疗决策。从这个角度来看,我们表明OPM依靠固定的治疗政策,这意味着被发现可以准确预测验证研究结果的OPM在用于治疗决策的情况下仍会导致患者伤害。然后,我们提供有关如何开发对个性化治疗决策有用的模型以及如何评估模型是否具有决策价值的指导。
translated by 谷歌翻译
胰腺癌是与癌症相关死亡的全球主要原因之一。尽管深度学习在计算机辅助诊断和检测方法(CAD)方法中取得了成功,但很少关注胰腺癌的检测。我们提出了一种检测胰腺肿瘤的方法,该方法在周围的解剖结构中利用临床上的特征,从而更好地旨在利用放射科医生的知识,而不是其他常规的深度学习方法。为此,我们收集了一个新的数据集,该数据集由99例胰腺导管腺癌(PDAC)和97例没有胰腺肿瘤的对照病例组成。由于胰腺癌的生长模式,肿瘤可能总是可见为低音病变,因此,专家指的是二次外部特征的可见性,这些特征可能表明肿瘤的存在。我们提出了一种基于U-NET样深的CNN的方法,该方法利用以下外部次要特征:胰管,常见的胆管和胰腺以及处理后的CT扫描。使用这些功能,该模型如果存在胰腺肿瘤。这种用于分类和本地化方法的细分实现了99%的敏感性(一个案例)和99%的特异性,这比以前的最新方法的灵敏度增加了5%。与以前的PDAC检测方法相比,该模型还以合理的精度和较短的推理时间提供位置信息。这些结果提供了显着的性能改善,并强调了在开发新型CAD方法时纳入临床专家知识的重要性。
translated by 谷歌翻译
在本文中,我们将$ \ textit {开放设定识别} $与域移动一起研究,最终目标是实现$ \ textit {无源的通用域apation} $(sf-unda),以解决以下情况源和目标域之间存在域和类别变化。在SF-UNDA设置下,该模型在目标适应过程中无法再访问源数据,旨在解决数据隐私问题。我们提出了一种新颖的培训计划,以学习($ n $+1) - 道路分类器,以预测$ n $源类和未知类别,其中仅可用于培训的样本。此外,对于目标适应,我们简单地采用了加权熵最小化,以使源预处理的模型适应未标记的目标域而没有源数据。在实验中,我们显示了:$ \ textbf {1)} $在源培训后,生成的源模型可以获得$ \ textit {开放设定单域概括} $以及$ \ textit {开放设定{open-Set识别}的出色性能$任务; $ \ textbf {2)} $在目标适应后,我们的方法超过了当前的UNDA方法,这些方法在几个基准上的适应过程中需要源数据。对几个不同任务的多功能性强烈证明了我们方法的功效和概括能力。 $ \ textbf {3)} $在目标适应过程中使用封闭设置的域适应方法增强时,我们的无源方法进一步超过了当前的最新unda方法,将当前的方法提高2.5%,7.2%和13% Office-31,办公室和Visda。代码将在https://github.com/albert0147/onering中提供。
translated by 谷歌翻译
最近的自我监督学习方法能够学习高质量的图像表示,并通过监督方法关闭差距。但是,这些方法无法逐步获取新的知识 - 事实上,它们实际上主要仅用为具有IID数据的预训练阶段。在这项工作中,我们在没有额外的记忆或重放的情况下调查持续学习制度的自我监督方法。为防止忘记以前的知识,我们提出了功能正规化的使用。我们将表明,朴素的功能正则化,也称为特征蒸馏,导致可塑性的低可塑性,因此严重限制了连续的学习性能。为了解决这个问题,我们提出了预测的功能正则化,其中一个单独的投影网络确保新学习的特征空间保留了先前的特征空间的信息,同时允许学习新功能。这使我们可以防止在保持学习者的可塑性时忘记。针对应用于自我监督的其他增量学习方法的评估表明我们的方法在不同场景和多个数据集中获得竞争性能。
translated by 谷歌翻译
多光谱探测器的进步导致X射线计算机断层扫描(CT)的范式偏移。从这些检测器获取的光谱信息可用于提取感兴趣对象的体积材料成分图。如果已知材料及其光谱响应是先验的,则图像重建步骤相当简单。但是,如果他们不知道,则需要共同估计地图以及响应。频谱CT中的传统工作流程涉及执行卷重建,然后进行材料分解,反之亦然。然而,这些方法本身遭受了联合重建问题的缺陷。为了解决这个问题,我们提出了一种基于词典的联合重建和解密方法的光谱断层扫描(调整)。我们的配方依赖于形成CT中常见的材料的光谱签名词典以及对象中存在的材料数的先验知识。特别地,我们在空间材料映射,光谱词典和字典元素的材料的指示符方面对光谱体积线性分解。我们提出了一种记忆有效的加速交替的近端梯度方法,以找到所得到的Bi-convex问题的近似解。根据几种合成幻影的数值示范,我们观察到与其他最先进的方法相比,调整非常好。此外,我们解决了针对有限测量模式调整的鲁棒性。
translated by 谷歌翻译